[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
一、研究背景
OCR技术发展到今天,对于常规文本的识别已经达到了较高的准确率。但是对于在自动阅卷、数字图书馆建设、办公自动化等领域经常出现的手写数学公式,现有OCR算法的识准确率依然不太理想。不同于常规文本,手写数学公式有着复杂的空间结构以及多样化的书写风格,如图1所示。其中复杂的空间结构主要是由数学公式独特的分式、上下标、根号等结构造成的。虽然目前的OCR算法能较好地识别水平排布的常规文本,甚至对于一些多方向以及弯曲文本也能够有不错的识别效果,但是依然不能很好地识别具有复杂空间结构的数学公式。
二、研究动机
现有的大部分手写数学公式识别算法采用的是基于注意力机制的编码器-解码器结构,模型在识别每一个符号时,需要注意到图像中该符号对应的位置区域。在识别常规文本时,注意力的移动规律比较单一,往往是从左至右或从右至左。但是在识别数学公式时,注意力在图像中的移动具有更多的可能性。因此,模型在解码较复杂的数学公式时,容易出现注意力不准确的现象,导致重复识别某符号或者是漏识别某符号。
为了缓解上述现象,本文提出将符号计数引入手写数学公式识别。这种做法主要基于以下两方面的考虑:1)符号计数(如图2(a)所示)可以隐式地提供符号位置信息,这种位置信息可以使得注意力更加准确(如图2(b)所示)。2)符号计数结果可以作为额外的全局信息来提升公式识别的准确率。
图2 (a)符号计数任务;(b)符号计数任务让模型拥有更准确的注意力
三、方法简述
模型整体框架:如图3所示,CAN模型由主干特征提取网络、多尺度计数模块(MSCM)和结合计数的注意力解码器(CCAD)构成。主干特征提取网络采用的是DenseNet[1]。对于给定的输入图像,主干特征提取网络提取出2D特征图F。随后该特征图F被输入到多尺度计数模块MSCM,输出计数向量V。特征图F和计数向量V都会被输入到结合计数的注意力解码器CCAD来产生最终的预测结果。
图3 CAN模型整体框架
多尺度计数模块:在人群计数等任务中,部分方法采用弱监督的范式,在不需要使用人群位置标注的情况下预测人群密度图。本文借鉴了这一做法,在只使用公式识别原始标注(即LaTeX序列)而不使用符号位置标注的情况下进行多类符号计数。针对符号计数任务,该计数模块做了两方面独特的设计:1)用计数图的通道数表征类别数,并在得到计数图前使用Sigmoid激活函数将每个元素的值限制在(0,1)的范围内,这样在对计数图进行H和W维度上的加和后,可以直接表征各类符号的计数值。2)针对手写数学公式符号大小多变的特点,采用多尺度的方式提取特征以提高符号计数准确率。
图4 多尺度计数模块MSCM
结合计数的注意力解码器:为了加强模型对于空间位置的感知,使用位置编码表征特征图中不同空间位置。另外,不同于之前大部分公式识别方法只使用局部特征进行符号预测的做法,在进行符号类别预测时引入符号计数结果作为额外的全局信息来提升识别准确率。
四、实验结果
在广泛使用的CROHME数据集以及新出现的HME100K[2]数据集上都进行了实验并与之前的最优方法做了比较。如表1和表2所示,可以看出CAN取得了目前最高的识别准确率。此外,使用经典模型DWAP[3]作为baseline得到的CAN-DWAP以及使用之前最优模型ABM[4]作为baseline得到的CAN-ABM,其结果都分别优于对应的baseline模型,这说明本文所提出的方法可以被应用在目前大部分编码器-解码器结构的公式识别模型上并提升它们的识别准确率。
图6 在CROHME数据集上DWAP和CAN-DWAP的识别结果展示
对于模型各部分带来的提升,本文做了消融实验。如表3所示,加入位置编码、将两种任务联合优化以及融合符号计数结果进行预测都能提升模型对于手写数学公式的识别准确率。此外,为了验证采用多尺度的方式提取特征的有效性以及研究符号计数结果对于公式识别准确率的影响,本文做了实验进行验证。如表4所示,使用大小不同的卷积核提取多尺度特征有助于获得更高的符号计数准确率。并且计数结果越准确,对公式识别的提升也越大。表5则展示了当使用符号计数的GT(Ground Truth)时对于模型识别准确率的提升。
表4 计数模块中卷积核大小的影响
符号计数对于公式识别有促进作用,那么反过来公式识别能否提升符号计数的准确率呢?本文对这一问题也做了探讨,实验结果和符号计数可视化结果如表6和图7所示,可以看出公式识别任务也可以提升符号计数的准确率。本文认为这是因为公式识别的解码过程提供了符号计数任务缺少的上下文语义信息。
五、文本结论
相关资源
参考文献
[1] Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks. In: Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition. pp. 4700–4708 (2017)
[2] Yuan, Y., Liu, X., Dikubab, W., Liu, H., Ji, Z., Wu, Z., Bai, X.: Syntax-aware network for handwritten mathematical expression recognition. In: Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition. pp. 4553–4562 (2022)
[3] Zhang, J., Du, J., Dai, L.: Multi-scale attention with dense encoder for handwritten mathematical expression recognition. In: Proc. of Intl. Conf. on Pattern Recognition. pp. 2245–2250 (2018)
[4] Bian, X., Qin, B., Xin, X., Li, J., Su, X., Wang, Y.: Handwritten mathematical expression recognition via attention aggregation based bi-directional mutual learning. In: Proc. of the AAAI Conf. on Artificial Intelligence. pp. 113–121 (2022)
原文作者:Bohan Li, Ye Yuan, Dingkang Liang, Xiao Liu, Zhilong Ji, Jinfeng Bai, Wenyu Liu and Xiang Bai
撰稿:李泊翰
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)
[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)
[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法
[CVPR2022] 端到端的场景文字检测与版面分析统一框架
[AAAI 2022] BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯